写评论
评论
点赞
手机看
分享至
- 用微信扫码二维码分享至好友和朋友圈

“智能司机”来了！理想汽车发布自动驾驶架构MindVLA

作者：观汽车
2025-03-18 20:37

3月18日，在NVIDIA GTC 2025大会上，理想汽车自动驾驶技术研发负责人贾鹏正式揭晓了下一代自动驾驶架构MindVLA（视觉-语言-行为大模型），并发表题为《VLA：迈向自动驾驶物理智能体的关键一步》的主题演讲。这一技术突破标志着自动驾驶从“规则驱动”迈向“认知驱动”，汽车将不再是冰冷的机器，而是具备感知、思考和适应能力的“专职司机”。

MindVLA：物理世界与数字智能的融合体

MindVLA是全球首个将空间智能、语言智能与行为智能深度融合的机器人大模型。其核心在于通过统一架构赋予车辆类人的多维认知能力。借助自研的“3D高斯”表征技术，系统能够高效解析复杂环境的几何结构与语义信息，例如精准识别道路障碍、商铺招牌甚至用户拍摄的随机场景照片。与此同时，基于混合专家架构（MoE）的大型语言模型基座，MindVLA模拟人类“快慢思考”的决策机制，既能快速响应突发路况，也能在复杂博弈场景中完成深度逻辑推理。

在行为生成层面，MindVLA引入扩散模型（Diffusion）优化驾驶轨迹。这一技术仅需2-3步即可生成安全且高效的行驶路径，并动态适应交通参与者之间的交互博弈。例如，当车辆在无地图的商场地库中寻找车位时，系统不仅能自主规划路线，还能在遇到死胡同后主动倒车、重新探索，全程依赖实时空间推理而非预设导航数据。

技术突破：从仿真学习到实时交互

MindVLA的竞争力源于其全栈自研的底层技术创新。理想汽车构建了云端统一世界模型，通过融合三维场景重建与生成式预测，打造出接近真实的仿真环境。自动驾驶系统可在此环境中进行大规模闭环强化学习，真正实现“从错误中学习”。例如，过去一年中，团队将3D高斯场景的训练速度提升7倍以上，显著加速了算法的迭代优化。

为平衡模型规模与实时性能，MindVLA采用稀疏注意力机制与并行解码技术，确保车端毫秒级响应。此外，通过人类反馈强化学习（RLHF），系统能够对齐人类驾驶偏好，例如在激进与保守风格之间动态调整，甚至根据用户指令“开慢些”即时改变行车策略。这种“语言-行为”的无缝衔接，使得用户可通过自然对话直接操控车辆，如“绕开拥堵”或“寻找最近的充电桩”。

用户体验：汽车成为“听得懂、看得见、找得到”的伙伴

MindVLA的落地将彻底重塑人车交互模式。用户无需依赖固定指令或地图导航，仅需用日常语言与车辆沟通。例如，在陌生园区说出“带我去超市”，车辆便能自主探索并定位目标；若在地库遗失车辆，上传一张环境照片，系统即可反向识别位置并自动驶至用户身边。